Mạng tương tác protein là gì? Nghiên cứu khoa học liên quan

Mạng tương tác protein là mô hình đồ thị biểu diễn protein như các nút và các mối tương tác như cạnh, nhằm mô tả cách protein liên kết và phối hợp thực hiện chức năng sinh học. Thông qua cách tiếp cận hệ thống, PPI network giúp tổng hợp dữ liệu tương tác và làm rõ tổ chức chức năng của tế bào, vượt ra ngoài việc phân tích từng protein riêng lẻ.

Khái niệm mạng tương tác protein (Protein–Protein Interaction Network, PPI network)

Mạng tương tác protein (Protein–Protein Interaction Network, viết tắt là PPI network) là một mô hình biểu diễn có hệ thống các mối quan hệ giữa các protein trong một tế bào hoặc trong toàn bộ hệ sinh học của một loài. Trong mô hình này, mỗi protein được xem như một đơn vị chức năng riêng lẻ nhưng không hoạt động độc lập, mà luôn tham gia vào các tương tác với những protein khác để thực hiện các quá trình sinh học cơ bản như sao chép DNA, phiên mã, dịch mã, truyền tín hiệu, trao đổi chất và điều hòa chu kỳ tế bào.

PPI network thường được mô tả dưới dạng một đồ thị, trong đó protein là các nút (nodes) và các mối tương tác là các cạnh (edges). Cách biểu diễn này cho phép chuyển các vấn đề sinh học phức tạp sang không gian phân tích của lý thuyết đồ thị và sinh học hệ thống, từ đó nghiên cứu được cấu trúc tổng thể của hệ protein thay vì chỉ từng cặp protein riêng lẻ.

Khái niệm “tương tác” trong PPI network không chỉ giới hạn ở việc hai protein gắn trực tiếp với nhau bằng liên kết vật lý, mà có thể bao hàm nhiều mức độ liên hệ khác nhau. Tùy theo mục tiêu nghiên cứu, một mạng PPI có thể được xây dựng để phản ánh:

Tương tác vật lý trực tiếp giữa hai protein (direct physical binding).
Các protein cùng tham gia một phức hợp đa protein ổn định hoặc bán ổn định.
Các protein có liên kết chức năng, tức là cùng tham gia một quá trình sinh học hoặc một con đường tín hiệu, dù không nhất thiết tiếp xúc trực tiếp.

Do đó, PPI network không chỉ là một tập hợp các mối gắn kết phân tử, mà còn là một công cụ khái quát hóa cách các chức năng sinh học được tổ chức ở mức hệ thống. Điều này đặc biệt quan trọng trong bối cảnh sinh học hiện đại, nơi các hiện tượng sinh học thường không thể giải thích đầy đủ nếu chỉ xét từng gene hay protein đơn lẻ.

Biểu diễn toán học và trực quan: đồ thị, ma trận kề, đồ thị có trọng số

Từ góc độ toán học, PPI network được mô hình hóa chủ yếu bằng lý thuyết đồ thị. Trong dạng đơn giản nhất, mạng được biểu diễn như một đồ thị vô hướng, trong đó một cạnh nối hai nút biểu thị rằng hai protein có tương tác với nhau, nhưng không xét đến chiều hay hướng của tương tác. Cách tiếp cận này phù hợp với phần lớn dữ liệu tương tác vật lý truyền thống.

Trong một số trường hợp, đặc biệt khi nghiên cứu các mối quan hệ điều hòa hoặc truyền tín hiệu, mạng có thể được mở rộng thành đồ thị có hướng. Khi đó, cạnh mang thông tin về chiều tác động, ví dụ protein A phosphoryl hóa protein B. Tuy nhiên, dữ liệu PPI có hướng hiện vẫn hạn chế hơn so với dữ liệu vô hướng.

Một cách biểu diễn phổ biến khác là sử dụng ma trận kề (adjacency matrix). Với một mạng gồm n protein, ma trận kề là một ma trận vuông n × n, trong đó phần tử tại hàng i, cột j phản ánh sự tồn tại của tương tác giữa protein i và protein j:

A_{ij} = \begin{cases} 1, & \text{nếu tồn tại tương tác giữa } i \text{ và } j \\ 0, & \text{nếu không} \end{cases}

Trong thực tế, nhiều PPI network không chỉ quan tâm đến việc “có hay không” tương tác, mà còn quan tâm đến mức độ tin cậy hoặc cường độ của tương tác. Khi đó, mạng được biểu diễn như một đồ thị có trọng số, trong đó mỗi cạnh được gán một giá trị số:

A_{ij} = w_{ij}

Giá trị $w_{ij}$ có thể đại diện cho xác suất, điểm tin cậy tổng hợp từ nhiều nguồn bằng chứng, hoặc một thước đo định lượng khác do cơ sở dữ liệu quy ước. Bảng dưới đây tóm tắt sự khác biệt giữa các dạng biểu diễn thường gặp:

Dạng mạng	Đặc điểm chính	Ứng dụng phổ biến
Không trọng số	Chỉ biểu diễn có/không có tương tác	Phân tích cấu trúc tổng quát, phát hiện mô-đun
Có trọng số	Cạnh mang giá trị độ tin cậy hoặc cường độ	Ưu tiên tương tác quan trọng, phân tích định lượng
Có hướng	Cạnh có chiều tác động	Truyền tín hiệu, mô hình hóa điều hòa

Phân loại tương tác và mức độ bằng chứng

Một điểm quan trọng khi làm việc với PPI network là hiểu rõ bản chất của từng loại tương tác được mã hóa trong mạng. Không phải mọi cạnh trong mạng đều mang cùng một ý nghĩa sinh học, và việc diễn giải sai có thể dẫn đến kết luận không chính xác.

Về mặt khái niệm, các tương tác protein thường được phân loại thành một số nhóm chính:

Tương tác nhị phân: hai protein gắn trực tiếp với nhau, thường được xác định bởi các assay như yeast two-hybrid.
Tương tác trong phức hợp: nhiều protein cùng tồn tại trong một phức hợp; dữ liệu này thường không cho biết cặp nào gắn trực tiếp với cặp nào.
Liên kết chức năng: mối quan hệ suy ra từ các bằng chứng gián tiếp như đồng biểu hiện gene, đồng tiến hóa, hoặc đồng xuất hiện trong tài liệu khoa học.

Mức độ bằng chứng cho một tương tác có thể rất khác nhau. Một số tương tác được xác nhận bằng nhiều thí nghiệm độc lập trong điều kiện sinh lý gần với tự nhiên, trong khi những tương tác khác chỉ được suy đoán từ dữ liệu tính toán. Vì lý do này, hầu hết các cơ sở dữ liệu PPI hiện đại đều gán cho mỗi tương tác một hoặc nhiều chỉ số tin cậy.

Các chỉ số này thường phản ánh:

Loại phương pháp thí nghiệm hoặc phương pháp suy đoán.
Số lượng nguồn độc lập cùng báo cáo tương tác.
Mức độ tái lập hoặc nhất quán giữa các nghiên cứu.

Việc hiểu rõ nguồn gốc và mức độ bằng chứng của từng cạnh là điều kiện tiên quyết để sử dụng PPI network một cách hợp lý, đặc biệt khi mạng được dùng để suy luận chức năng protein hoặc cơ chế bệnh học.

Nguồn dữ liệu PPI: cơ sở dữ liệu curated và tài nguyên tích hợp

Dữ liệu PPI không xuất phát từ một nguồn duy nhất, mà được tổng hợp từ nhiều cơ sở dữ liệu với triết lý xây dựng khác nhau. Nhìn chung, các nguồn dữ liệu này có thể được chia thành hai nhóm lớn: cơ sở dữ liệu được chú giải thủ công (curated databases) và các tài nguyên tích hợp đa nguồn.

Các cơ sở dữ liệu curated tập trung vào việc thu thập tương tác đã được công bố trong các bài báo khoa học và được chuyên gia chú giải lại một cách có hệ thống. Ưu điểm của nhóm này là độ tin cậy cao và thông tin chi tiết về bối cảnh thí nghiệm, nhưng nhược điểm là phạm vi bao phủ thường hạn chế và cập nhật chậm hơn.

Ngược lại, các tài nguyên tích hợp đa nguồn kết hợp dữ liệu thực nghiệm với các phương pháp dự đoán và tri thức nền sẵn có để tạo ra mạng liên kết chức năng ở quy mô lớn. Những mạng này đặc biệt hữu ích cho phân tích khám phá và sinh học hệ thống, nhưng đòi hỏi người dùng phải chú ý đến ngưỡng lọc và điểm tin cậy.

Bảng dưới đây minh họa sự khác biệt tổng quát giữa hai nhóm nguồn dữ liệu:

Loại nguồn	Đặc trưng	Phù hợp cho
Curated	Dựa trên văn献, chú giải thủ công, chi tiết thí nghiệm	Xác thực tương tác, phân tích cơ chế
Tích hợp	Gom nhiều bằng chứng, bao phủ rộng	Khám phá chức năng, phân tích mạng lớn

Trong thực hành nghiên cứu, PPI network thường được xây dựng bằng cách kết hợp cả hai loại nguồn, nhằm tận dụng độ tin cậy của dữ liệu curated và độ bao phủ của các tài nguyên tích hợp, đồng thời giảm thiểu rủi ro diễn giải sai do thiên lệch dữ liệu.

Phương pháp thực nghiệm để thu nhận tương tác protein

Dữ liệu nền tảng của mạng tương tác protein đến từ nhiều phương pháp thực nghiệm khác nhau, mỗi phương pháp phản ánh một khía cạnh riêng của mối quan hệ giữa các protein. Không có kỹ thuật nào có thể bao phủ toàn bộ phổ tương tác protein, vì vậy dữ liệu PPI hiện nay luôn là sự kết hợp của nhiều loại thí nghiệm với độ nhạy, độ đặc hiệu và thiên lệch khác nhau.

Các phương pháp phổ biến có thể được chia thành hai nhóm lớn: phương pháp phát hiện tương tác nhị phân và phương pháp phát hiện tương tác trong phức hợp. Phương pháp yeast two-hybrid (Y2H) là đại diện điển hình cho nhóm thứ nhất, cho phép phát hiện tương tác trực tiếp giữa hai protein trong hệ thống nấm men. Y2H có ưu điểm là triển khai được ở quy mô lớn, nhưng lại dễ bỏ sót các tương tác phụ thuộc bối cảnh tế bào hoặc điều kiện sinh lý đặc thù.

Nhóm phương pháp thứ hai bao gồm affinity purification kết hợp với khối phổ (AP-MS), co-immunoprecipitation (Co-IP) và các biến thể liên quan. Các kỹ thuật này có khả năng phát hiện các protein cùng tồn tại trong một phức hợp, phản ánh gần hơn bối cảnh sinh học tự nhiên, nhưng thường không phân biệt được tương tác trực tiếp và gián tiếp. Ngoài ra, các kỹ thuật đánh dấu lân cận (proximity labeling) như BioID hay APEX ngày càng được sử dụng để khảo sát môi trường protein trong không gian tế bào.

Y2H: mạnh cho tương tác nhị phân, quy mô lớn.
AP-MS: phù hợp cho phân tích phức hợp protein.
Proximity labeling: phản ánh không gian – thời gian tương tác.

Xây dựng PPI network trong thực hành: tiêu chí lọc và chuẩn hóa

Việc xây dựng một PPI network từ dữ liệu thô hoặc từ cơ sở dữ liệu công khai đòi hỏi nhiều bước tiền xử lý nhằm đảm bảo tính nhất quán và khả năng diễn giải. Bước đầu tiên thường là chuẩn hóa định danh protein, do cùng một protein có thể được biểu diễn bằng nhiều mã khác nhau (gene symbol, UniProt ID, Ensembl ID). Nếu không chuẩn hóa, mạng thu được dễ bị trùng lặp nút hoặc mất liên kết quan trọng.

Một tiêu chí quan trọng khác là phạm vi sinh học của mạng. PPI network có thể được xây dựng cho toàn bộ hệ protein của một loài, hoặc chỉ giới hạn trong một mô, một loại tế bào, hay một điều kiện sinh lý cụ thể. Trong nhiều trường hợp, mạng “toàn cục” chỉ phản ánh khả năng tương tác tiềm năng, chứ không phải tương tác thực sự đang xảy ra trong bối cảnh nghiên cứu.

Quá trình lọc tương tác thường dựa trên điểm tin cậy, loại bằng chứng và số lượng nguồn độc lập. Ví dụ, người nghiên cứu có thể chỉ giữ lại các tương tác có bằng chứng thực nghiệm trực tiếp, hoặc đặt ngưỡng điểm tin cậy tối thiểu khi sử dụng dữ liệu tích hợp. Các quyết định này ảnh hưởng trực tiếp đến cấu trúc và mật độ của mạng.

Chuẩn hóa ID protein (UniProt, HGNC, Ensembl).
Chọn loài, mô hoặc điều kiện sinh học.
Lọc theo điểm tin cậy và loại bằng chứng.
Ghi nhận nguồn gốc dữ liệu (data provenance).

Các chỉ số mạng quan trọng và ý nghĩa sinh học

Sau khi xây dựng, PPI network thường được phân tích bằng các chỉ số của lý thuyết đồ thị nhằm rút ra thông tin sinh học có ý nghĩa. Chỉ số cơ bản nhất là bậc (degree), phản ánh số lượng tương tác của một protein. Các protein có bậc cao thường được gọi là “hub” và đôi khi được giả định là có vai trò thiết yếu, mặc dù mối liên hệ này không phải lúc nào cũng đúng trong mọi bối cảnh.

Hệ số gom cụm (clustering coefficient) đo lường mức độ liên kết giữa các láng giềng của một protein, từ đó phản ánh xu hướng hình thành các mô-đun chức năng hoặc phức hợp protein. Ngoài ra, các chỉ số trung gian như betweenness centrality giúp xác định những protein đóng vai trò “cầu nối” giữa các cụm mạng khác nhau, có thể liên quan đến điều hòa hoặc tích hợp tín hiệu.

Các phương pháp phát hiện cộng đồng (community detection) và mô-đun mạng thường được sử dụng để tách mạng lớn thành các tập con nhỏ hơn, dễ diễn giải hơn. Những mô-đun này thường được đối chiếu với chú giải chức năng (Gene Ontology) hoặc pathway sinh học để đánh giá ý nghĩa sinh học.

Ứng dụng chính trong sinh học hệ thống và y sinh

PPI network là một thành phần cốt lõi của sinh học hệ thống, nơi mục tiêu là hiểu cách các thành phần sinh học phối hợp để tạo nên chức năng ở mức tế bào và cơ thể. Một ứng dụng quan trọng là suy luận chức năng protein chưa được đặc trưng rõ ràng, dựa trên vị trí của chúng trong mạng và các protein lân cận đã biết chức năng.

Trong y sinh học, PPI network được sử dụng để nghiên cứu cơ chế bệnh, đặc biệt trong các bệnh phức tạp như ung thư, bệnh thần kinh và bệnh hiếm. Các gene liên quan đến bệnh thường không phân bố ngẫu nhiên trong mạng, mà tập trung thành các mô-đun hoặc vùng mạng đặc thù. Điều này cho phép xác định gene ứng viên mới và hiểu rõ hơn cơ chế phân tử của bệnh.

PPI network cũng được ứng dụng trong phát triển thuốc, bao gồm xác định mục tiêu thuốc, đánh giá tác động ngoài mục tiêu (off-target effects) và tái định vị thuốc (drug repurposing) thông qua phân tích khoảng cách mạng giữa protein đích và mô-đun bệnh.

Công cụ phổ biến để phân tích và trực quan hóa PPI network

Để khai thác PPI network hiệu quả, nhiều công cụ phần mềm đã được phát triển. Cytoscape là nền tảng phổ biến nhất cho trực quan hóa và phân tích mạng sinh học, cho phép người dùng nhập dữ liệu từ nhiều nguồn, tính toán chỉ số mạng và mở rộng chức năng thông qua các plugin chuyên biệt.

Ngoài Cytoscape, các cổng trực tuyến như STRING cung cấp khả năng truy vấn nhanh mạng tương tác, phân tích làm giàu chức năng và xuất dữ liệu ở nhiều định dạng. Những công cụ này đặc biệt hữu ích cho giai đoạn khám phá ban đầu hoặc khi người dùng không cần tùy chỉnh sâu.

Cytoscape: phân tích và trực quan hóa chuyên sâu.
STRING: truy vấn nhanh, tích hợp dữ liệu.
BioGRID, IntAct: truy xuất dữ liệu curated.

Hạn chế, bẫy diễn giải và xu hướng phát triển

Mặc dù rất hữu ích, PPI network cũng tồn tại nhiều hạn chế. Một trong những thách thức lớn nhất là tính phụ thuộc bối cảnh: tương tác protein có thể thay đổi theo mô, thời gian, trạng thái sinh lý hoặc bệnh lý. Mạng tổng hợp toàn cục thường bỏ qua chiều không gian – thời gian này.

Thiên lệch dữ liệu cũng là vấn đề đáng kể, do các protein được nghiên cứu nhiều sẽ có xu hướng xuất hiện với nhiều tương tác hơn. Ngoài ra, sự khác biệt giữa các phương pháp thực nghiệm khiến các mạng PPI từ các nguồn khác nhau có cấu trúc không hoàn toàn tương thích.

Xu hướng hiện nay là tích hợp PPI network với dữ liệu đa omics (transcriptomics, proteomics, phosphoproteomics, single-cell) và dữ liệu cấu trúc protein để xây dựng các mạng “ngữ cảnh hóa”, phản ánh tốt hơn động học và cơ chế sinh học thực tế.

Tài liệu tham khảo

De Las Rivas J, Fontanillo C. Protein–protein interaction networks: unraveling the wiring of the cell. Briefings in Functional Genomics, 2012. https://academic.oup.com/bfg/article/11/6/489/237114
Szklarczyk D, et al. The STRING database in 2025. Nucleic Acids Research, 2025. https://academic.oup.com/nar/article/53/D1/D730/7903368
Oughtred R, et al. The BioGRID database. Protein Science, 2021. https://pubmed.ncbi.nlm.nih.gov/33070389/
del Toro N, et al. IntAct database update. Nucleic Acids Research, 2022. https://academic.oup.com/nar/article/50/D1/D648/6425548
Shannon P, et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Research, 2003. https://pmc.ncbi.nlm.nih.gov/articles/PMC403769/

Các bài báo, nghiên cứu, công bố khoa học về chủ đề mạng tương tác protein:

Tính tương thích sinh học của màng thẩm phân huyết tương gắn heparin: Tác động lên mức độ protein chemoattractant monocyte-1 và trạng thái ôxy hóa Dịch bởi AI

Hemodialysis International - Tập 14 Số 4 - Trang 403-410 - 2010

MỘT THUẬT TOÁN TỐI ƯU ĐÀN KIẾN DÓNG HÀNG TOÀN CỤC MẠNG TƯƠNG TÁC PROTEIN

PROCEEDING of Publishing House for Science and Technology - Tập 0 Số 0 - Trang - 2016

#Dóng hàng toàn cục #mạng tương tác protein #tối ưu đàn kiến

Các mô-đun chức năng động trong các mạng tương tác protein đồng biểu hiện của bệnh cơ tim giãn nở Dịch bởi AI

BMC Systems Biology - Tập 4 - Trang 1-14 - 2010

#bệnh cơ tim giãn nở #tương tác protein #mạng phân tử #mô-đun chức năng #suy tim

Phân tích mạng tương tác protein-protein (PPI) tiết lộ các protein trung tâm quan trọng và các mô-đun mạng con cho sự phát triển rễ ở lúa (Oryza sativa) Dịch bởi AI

Journal of Genetic Engineering and Biotechnology - Tập 21 - Trang 1-15 - 2023

#mạng PPI #protein trung tâm #phát triển rễ #lúa #Oryza sativa

Phức hợp hình thành trong màng thylakoid của thực vật. Nghiên cứu sự cạnh tranh trong tương tác của protein màng bằng cách sử dụng các mảnh peptide tổng hợp Dịch bởi AI

Photosynthesis Research - Tập 44 - Trang 277-285 - 1995

Dự đoán các phức hợp protein trong các mạng tương tác protein sử dụng thuật toán di truyền Dịch bởi AI

BMC Bioinformatics - Tập 17 Số 7 - Trang 481-489 - 2016

Xây dựng mạng tương tác protein–protein động sử dụng thuật toán đom đóm Dịch bởi AI

Pattern Analysis and Applications - Tập 21 - Trang 1067-1081 - 2017

#mạng tương tác protein #PPI động #thuật toán đom đóm #tối ưu hóa meta-heuristic #sinh học hệ thống

Tính chọn lọc nội tại trong việc gắn kết của matrix metalloproteinase-7 với các màng lipid mang điện tích khác nhau Dịch bởi AI

FEBS Letters - Tập 581 - Trang 5723-5726 - 2007

#matrix metalloproteinase-7 #MMP-7 #màng lipid #điện tích #tương tác điện động

Nghiên cứu mạng lưới phức hợp protein Dịch bởi AI

The European Physical Journal B - Tập 41 - Trang 113-121 - 2004

#Saccharomyces cerevisiae #mạng lưới phức hợp protein #proteome #interactome #mô hình tiến hóa #tương tác protein

Suy diễn mạng với các tập hợp cây phân cụm hai nhánh Dịch bởi AI

BMC Bioinformatics - Tập 20 - Trang 1-12 - 2019

#suy diễn mạng #cây phân cụm hai nhánh #học máy #mạng tương tác thuốc-protein #sinh học y học #sinh học hệ thống

Tổng số: 15

Chủ đề khác

#tiềm năng điện

Tiềm năng điện là gì? Các bài nghiên cứu khoa học liên quan

#vùng khô

Vùng khô là gì? Các bài báo nghiên cứu khoa học liên quan

#tiếng ồn đô thị

Tiếng ồn đô thị là gì? Các nghiên cứu khoa học liên quan

#luật điều khiển

Luật điều khiển là gì? Các nghiên cứu khoa học liên quan

#va chạm nguyên tử

Va chạm nguyên tử là gì? Các nghiên cứu khoa học liên quan

#cọc đất xi măng

Cọc đất xi măng là gì? Các nghiên cứu khoa học liên quan

#epcam

Epcam là gì? Các bài báo nghiên cứu khoa học liên quan

#clonidine

Clonidine là gì? Các bài báo nghiên cứu khoa học liên quan

#thể tích phân phối

Thể tích phân phối là gì? Các nghiên cứu khoa học liên quan

#hệ thống tự trị

Hệ thống tự trị là gì? Các nghiên cứu khoa học liên quan

Xem thêm

Scholar Hub - Công cụ hỗ trợ trích dẫn và phân tích khoa học Việt Nam

Scholar Hub là công cụ hỗ trợ trích dẫn và phân tích ảnh hưởng của các bài báo, công bố khoa học Việt Nam và Quốc tế.
ScholarHub KHÔNG đăng thông tin tổng hợp, KHÔNG đăng lại nội dung từ các trang báo chí Việt Nam hoặc trang thông tin điện tử khác tại Việt Nam.

Thông tin, cập nhật

Đăng ký Tạp chí tham gia Scholar Hub

Phản hồi ý kiến về Scholar Hub

Bài viết, nội dung cập nhật

Chủ đề khoa học

Website liên kết

Hệ thống CSDL Khoa học & Công nghệ SciBase

Phần mềm kiểm tra trùng lặp Kiểm Tra Tài Liệu

Phần mềm xuất bản tạp chí điện tử VOJS

Hệ thống hội thảo khoa học Việt Nam

Nền tảng trắc nghiệm và đề thi đa lĩnh vực LetQA

Thông tin liên hệ & hỗ trợ

Đơn vị chủ quản, phát triển và vận hành: Công ty Cổ phần Metis

Địa chỉ liên hệ: 26A Lê Đức Thọ, Phường Từ Liêm, Thành phố Hà Nội

Số giấy chứng nhận ĐKKD: 0109293202 cấp ngày 03/08/2020 tại Sở Kế hoạch và Đầu tư thành phố Hà Nội

Người quản lý và chịu trách nhiệm nội dung: Nguyễn Ngọc Sơn

Hotline: 0566.685.688

Email: [email protected]